ایجاد سامانه ای برای بررسی دقت روش lsa در خلاصه سازی متون زبان فارسی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده علوم ریاضی
- نویسنده پدرام صالحپور
- استاد راهنما محمدرضا فیضی درخشی سهراب خان محمدی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1389
چکیده
در این پایان نامه خلاصه سازی استخراجی متون زبان فارسی مورد توجه قرار گرفته است. با توجه به شیوه های معمول امتیازدهی برای خلاصه سازی، در این پایان نامه سعی بر این است که شیوه lsa را که کمتر در زبان فارسی به آن پرداخته شده است، به کار گرفته شود و نتایج به دست آمده آن ارزیابی گردد. در شیوه lsa با استفاده از ماتریس تکرار واژه ها متن سعی بر این است که ساختارهای مخفی در متن شناخته شود. آزمایش های انجام شده با استفاده از متون پیکره همشهری انجام شدند. این متون شامل ?? متن خبری از روزنامه همشهری بوده است و هر یک از آنها به طور متوسط بیش از ?? جمله داشته اند. این متون در ژانرهای اجتماعی سیاسی و ادبی قرار گرفته بودند. به عنوان ارزیابی میزان عملکرد الگوریتم خلاصه های تولیدی نسبت به خلاصه های دستی تولید شده به وسیله انسان بررسی شدند. در ادامه بهبودهایی برای الگوریتم lsa ارایه و مورد ارزیابی قرار گرفتند. این بهبودها در امتیاز استفاده شده پایه در الگوریتم lsa بوده است. بهبودهای پیشنهادی در این پایان نامه شامل امتیاز لغوی با برقراری ارتباط میان کلمات هم معنی، امتیاز گرامری با در نظر گرفتن طول جملات به عنوان امتیاز تقویت کننده هر جمله و ترکیب امتیاز mmr برای هر جمله در ماتریس تکرار عبارات است که به ترتیب دو تغییر اولی موجب بهبود عملکرد الگوریتم lsa به طور متوسط بیش از ?? و امتیاز mmr آن را در حدود ??.?? تقویت نمود. در ادامه عملکرد الگوریتم در برابر عدم تعیین صحیح مرزها مورد ارزیابی قرار داده شد. خلاصه سازی چند سنده نیز در این پایان نامه مورد بررسی قرار گرفت و عملکرد الگوریتم lsa پایه و الگوریتم lsa بهبودیافته با تمام تغییرات مورد ارزیابی قرار گرفت که عملکرد الگوریتم lsa بهبود یافته با در نظر گرفتن تمام تغییرات بیش از ?? بهتر از الگوریتم lsa پایه بوده است. در ادامه تاثیر جملات تکراری در خلاصه چند سنده مورد ارزیابی قرار گرفت و میزان تاثیر آن به نمایش گذاشته شده است.
منابع مشابه
بهبود خلاصه سازی خودکار متون فارسی با استفاده از روشهای پردازش زبان طبیعی و گراف شباهت
A significant amount of available information is stored in textual databases which contains a large collection of documents from different sources (such as news, articles, books, emails and web pages). The increasing visibility and importance of this class of information motivates us to work on having better automatic evaluation tools for textual resources. The automatic summarization of tex...
متن کاملایجاز:یک سامانه عملیاتی برای خلاصهسازی تکسندی متون خبری فارسی
The rapid growth of published documents on the web has created some new requests for processing, classification and information retrieval. So, the use of natural language processing tools has increased around the world. Automatic summarization known as the core of a wide range of text-processing tools such as decision systems, accountability systems, search engines, etc. And always has been inv...
متن کاملخلاصه سازی ماشینی آماری متون فارسی
در این تحقیق سیستمی جهت خلاصه سازی آماری متون فارسی طراحی و پیاده سازی شده است.
ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون
Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...
متن کاملمدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی
Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing. This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...
متن کاملالگوی بررسی ساختار ارتباطی زبان در متون تعلیمی ادبیات فارسی
حوزة پژوهشهای زبانی سنتی یا بلاغت، با حوزة مطالعات زبانشناختی معاصر دارای چنان ارتباط استواری است که از آن میتوان به بوطیقای ارتباط یاد کرد. این بوطیقای ارتباط در هر گونة ادبی، مقتضای حال متفاوتی با گونههای دیگر دارد. بلاغت زبان در مثنوی نیز بر پایة بوطیقای «ارتباط- ترغیب»ی شکل گرفته است که در یک سوی آن، «بافت متن» به چشم میخورد و در سوی دیگر، عواملی را میتوان یافت که توانش ارتباطی مثنوی ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده علوم ریاضی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023